Reinforcement learning (RL) problems over general state and action spaces are notoriously challenging. In contrast to the tableau setting, one can not enumerate all the states and then iteratively update the policies for each state. This prevents the application of many well-studied RL methods especially those with provable convergence guarantees. In this paper, we first present a substantial generalization of the recently developed policy mirror descent method to deal with general state and action spaces. We introduce new approaches to incorporate function approximation into this method, so that we do not need to use explicit policy parameterization at all. Moreover, we present a novel policy dual averaging method for which possibly simpler function approximation techniques can be applied. We establish linear convergence rate to global optimality or sublinear convergence to stationarity for these methods applied to solve different classes of RL problems under exact policy evaluation. We then define proper notions of the approximation errors for policy evaluation and investigate their impact on the convergence of these methods applied to general-state RL problems with either finite-action or continuous-action spaces. To the best of our knowledge, the development of these algorithmic frameworks as well as their convergence analysis appear to be new in the literature.
translated by 谷歌翻译
我们考虑解决强大的马尔可夫决策过程(MDP)的问题,该过程涉及一组折扣,有限状态,有限的动作空间MDP,具有不确定的过渡核。计划的目的是找到一项强大的政策,以优化针对过渡不确定性的最坏情况值,从而将标准MDP计划作为特殊情况。对于$(\ Mathbf {s},\ Mathbf {a})$ - 矩形不确定性集,我们开发了一种基于策略的一阶方法,即稳健的策略镜像下降(RPMD),并建立$ \ Mathcal {o }(\ log(1/\ epsilon))$和$ \ Mathcal {o}(1/\ epsilon)$迭代复杂性,用于查找$ \ epsilon $ -optimal策略,并带有两个增加的步骤式方案。 RPMD的先前收敛适用于任何Bregman差异,前提是政策空间在以初始政策为中心时通过差异测量的半径限制了半径。此外,当布雷格曼的分歧对应于平方的欧几里得距离时,我们建立了一个$ \ mathcal {o}(\ max \ {1/\ epsilon,1/(\ eta \ eTa \ epsilon^2)\ epsilon^2)\任何常量的步进$ \ eta $。对于Bregman差异的一般类别,如果不确定性集满足相对强的凸度,则还为RPMD建立了类似的复杂性。当仅通过与名义环境的在线互动获得一阶信息时,我们进一步开发了一个名为SRPMD的随机变体。对于Bregman General Divergences,我们建立了一个$ \ MATHCAL {O}(1/\ Epsilon^2)$和$ \ Mathcal {O}(1/\ Epsilon^3)$样品复杂性,具有两个增加的静态方案。对于Euclidean Bregman Divergence,我们建立了一个$ \ MATHCAL {O}(1/\ Epsilon^3)$样本复杂性,并具有恒定的步骤。据我们所知,所有上述结果似乎是应用于强大的MDP问题的基于策略的一阶方法的新事物。
translated by 谷歌翻译
我们研究了平均奖励马尔可夫决策过程(AMDP)的问题,并开发了具有强大理论保证的新型一阶方法,以进行政策评估和优化。由于缺乏勘探,现有的彻底评估方法遭受了次优融合率以及处理不足的随机策略(例如确定性政策)的失败。为了解决这些问题,我们开发了一种新颖的差异时间差异(VRTD)方法,具有随机策略的线性函数近似以及最佳收敛保证,以及一种探索性方差降低的时间差(EVRTD)方法,用于不充分的随机策略,可相当的融合保证。我们进一步建立了政策评估偏见的线性收敛速率,这对于改善策略优化的总体样本复杂性至关重要。另一方面,与对MDP的政策梯度方法的有限样本分析相比,对AMDP的策略梯度方法的现有研究主要集中在基础马尔可夫流程的限制性假设下(例如,参见Abbasi-e, Yadkori等人,2019年),他们通常缺乏整体样本复杂性的保证。为此,我们开发了随机策略镜下降(SPMD)的平均奖励变体(LAN,2022)。我们建立了第一个$ \ widetilde {\ Mathcal {o}}(\ epsilon^{ - 2})$样品复杂性,用于在生成模型(带有UNICHAIN假设)和Markovian Noise模型(使用Ergodicicic Modele(具有核能的模型)下,使用策略梯度方法求解AMDP假设)。该界限可以进一步改进到$ \ widetilde {\ Mathcal {o}}}(\ epsilon^{ - 1})$用于求解正则化AMDPS。我们的理论优势通过数值实验来证实。
translated by 谷歌翻译
This paper studies the communication complexity of risk averse optimization over a network. The problem generalizes the well-studied risk-neutral finite-sum distributed optimization problem and its importance stems from the need to handle risk in an uncertain environment. For algorithms in the literature, there exists a gap in communication complexities for solving risk-averse and risk-neutral problems. We propose two distributed algorithms, namely the distributed risk averse optimization (DRAO) method and the distributed risk averse optimization with sliding (DRAO-S) method, to close the gap. Specifically, the DRAO method achieves the optimal communication complexity by assuming a certain saddle point subproblem can be easily solved in the server node. The DRAO-S method removes the strong assumption by introducing a novel saddle point sliding subroutine which only requires the projection over the ambiguity set $P$. We observe that the number of $P$-projections performed by DRAO-S is optimal. Moreover, we develop matching lower complexity bounds to show that communication complexities of both DRAO and DRAO-S are not improvable. Numerical experiments are conducted to demonstrate the encouraging empirical performance of the DRAO-S method.
translated by 谷歌翻译
We propose a new policy gradient method, named homotopic policy mirror descent (HPMD), for solving discounted, infinite horizon MDPs with finite state and action spaces. HPMD performs a mirror descent type policy update with an additional diminishing regularization term, and possesses several computational properties that seem to be new in the literature. We first establish the global linear convergence of HPMD instantiated with Kullback-Leibler divergence, for both the optimality gap, and a weighted distance to the set of optimal policies. Then local superlinear convergence is obtained for both quantities without any assumption. With local acceleration and diminishing regularization, we establish the first result among policy gradient methods on certifying and characterizing the limiting policy, by showing, with a non-asymptotic characterization, that the last-iterate policy converges to the unique optimal policy with the maximal entropy. We then extend all the aforementioned results to HPMD instantiated with a broad class of decomposable Bregman divergences, demonstrating the generality of the these computational properties. As a by product, we discover the finite-time exact convergence for some commonly used Bregman divergences, implying the continuing convergence of HPMD to the limiting policy even if the current policy is already optimal. Finally, we develop a stochastic version of HPMD and establish similar convergence properties. By exploiting the local acceleration, we show that for small optimality gap, a better than $\tilde{\mathcal{O}}(\left|\mathcal{S}\right| \left|\mathcal{A}\right| / \epsilon^2)$ sample complexity holds with high probability, when assuming a generative model for policy evaluation.
translated by 谷歌翻译
在本文中,我们提出了一种新的策略梯度(PG)方法,即用于解决一类正规化加固学习(RL)问题的块策略镜下降(BPMD)方法(强烈) - convex正规化器。与带有批处理更新规则的传统PG方法(访问和更新每个状态的策略)相比,BPMD方法通过部分更新规则具有廉价的每卷计算,该规则在采样状态上执行策略更新。尽管问题的性质和部分更新规则具有非概念性质,但我们还是为多种采样方案提供了统一的分析,并表明BPMD可以实现快速的线性收敛到全局最优性。特别是,均匀的采样导致可比的最坏情况总计算复杂性与批处理PG方法。还确定了一种与上policy采样的必要条件。通过混合采样方案,我们进一步表明,BPMD具有潜在的实例依赖性加速度,从而改善了对状态空间的依赖性,因此优于批次PG方法。然后,我们通过利用从样品构建的随机一阶信息扩展到随机设置。使用生成模型,$ \ tilde {\ mathcal {o}}(\ left \ lvert \ lerver \ mathcal {s} \ right \ rvert \ rvert \ left \ lest \ lerver \ lovt \ mathcal {a} \ right \ right \ rvert \ rvert \ rvert /\ epsilon) $ \ tilde {\ mathcal {o}}(\ left \ lvert \ m athcal {s} \ right \ rvert \ rvert \ left \ lest \ lvert \ lerver \ mathcal {a} \ right \ right \ rvert /\ epsilon^2)强率强度(分别为非巧克力符号)正规化器,其中$ \ epsilon $表示目标准确性。据我们所知,这是第一次开发和分析了块坐标下降方法,以进行强化学习的策略优化,这为解决大规模RL问题提供了新的观点。
translated by 谷歌翻译
我们研究了线性函数近似的政策评估问题,并且目前具有强烈的最优性保证的高效实用算法。我们首先通过证明在这个问题中建立基线的下限来建立基线和随机错误。特别是,我们在与转换内核的静止分布相关联的实例相关规范中证明了Oracle复杂性下限,并使用本地渐近最低限度机械在随机误差中证明依赖于随机误差的实例相关的下限IID观察模型。现有算法未能匹配这些下限中的至少一个:为了说明,我们分析了时间差异学习的方差减少变体,特别是它未能实现Oracle复杂性下限。为了解决这个问题,我们开发了加速,方差减少的快速时间差算法(VRFTD),其同时匹配两个下限,并达到实例 - 最优性的强烈概念。最后,我们将VRFTD算法扩展到Markovian观察的设置,并提供与I.I.D中的实例相关的收敛结果。设置到与链条的混合时间成比例的乘法因子。我们的理论保证最佳的最佳保证是通过数值实验证实的。
translated by 谷歌翻译
嵌入学习在其他域中发现了推荐系统和自然语言建模中的广泛应用。为了有效地学习质量嵌入,自适应学习率算法已经证明了SGD的卓越经验性能,主要是对其令牌依赖学习率的认可。然而,令牌依赖学习率效率的潜在机制仍然是缺乏缺陷的。我们表明,在嵌入学习问题中结合令牌的频率信息导致可提供的可提供有效的算法,并且证明普通的自适应算法在很大程度上隐含地利用频率信息。具体地,我们提出(基于计数器的)频率感知随机梯度下降,其为每个令牌应用频率相关的学习率,并且当令牌分布不平衡时,与SGD相比表现出可提供的速度。凭经验,我们显示所提出的算法能够改进或匹配基准推荐任务和大型工业推荐系统的自适应算法,关闭SGD和自适应算法之间的性能差距。我们的结果是第一个显示令牌依赖学习率,可否改善非凸嵌入学习问题的收敛。
translated by 谷歌翻译
最近,凸嵌套随机复合优化(NSCO)因其在增强学习和规避风险优化方面的应用而受到了极大的关注。当前的NSCO算法通过数量级的随机甲骨文复杂性较差,而没有嵌套结构的简单随机复合优化问题(例如,平滑和非平滑函数的总和)。此外,它们要求所有外层函数都是平滑的,这对某些重要的应用不满足。这些差异促使我们问:``嵌套成分是否使随机优化在甲骨文复杂性的顺序上更加困难?平滑,结构化的非平滑和一般非平滑层函数的任意组成。当所有外层函数平滑时,我们提出了一种随机顺序双重(SSD)方法,以实现$ \ Mathcal {O}的甲骨文复杂性(1)(1 /\ epsilon^2)$($ \ MATHCAL {o}(1/\ Epsilon)$)当问题不是(强)凸出时。函数,我们提出了一种非平滑随机顺序双重(NSSD)方法,以实现$ \ MATHCAL {O}(1/\ epsilon^2)$的甲骨文复杂性。我们提供了较低的复杂性,以显示后者$ \ MATHCAL {O }(1/\ epsilon^2)$即使在强烈的凸面设置下也无法改善。 XITY结果似乎是文献中的新事物,它们表明凸NSCO问题的甲骨文复杂性与没有嵌套成分的甲骨文复杂性相同,除了强烈的凸面和外部不太平滑问题。
translated by 谷歌翻译
在本文中,我们首先提出了一种新的操作员外推(OE)方法,用于解决确定性变异不平等(VI)问题。类似于梯度(操作员)投影方法,OE通过在每次迭代中求解一个投影子问题来更新一个搜索序列。我们表明,OE可以以比现有方法更简单地解决各种VI问题的最佳收敛速率。然后,我们介绍随机操作员外推(SOE)方法,并建立其最佳收敛行为以解决不同的随机VI问题。特别是,SOE在文献中首次实现了解决基本问题的最佳复杂性,即,即随机平滑且强烈单调VI。我们还提出了一种随机块操作员外推(SBOE)方法,以进一步降低应用于具有一定块结构的大规模确定性VIS的OE方法的迭代成本。已经进行了数值实验,以证明所提出算法的潜在优势。实际上,所有这些算法都用于求解概括的单调变异不平等(GMVI)问题,其操作员不一定是单调的。我们还将在同伴论文中讨论基于OE的最佳政策评估方法。
translated by 谷歌翻译